<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   主题：高维、相依和不完全数据的统计分析（转载）  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript">
   MathJax.Hub.Config({elements: ["bbpress-forums"]});
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://cos.name/cn/topic/8789/",
                  host: "http://cos.name",
                  prePath: "http://cos.name",
                  scheme: "http",
                  pathBase: "http://cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466464077: Accept with keywords: (title(0.5):统计分析,主题,数据,论坛, topn(0.533333333333):统计学家,方面,帖子,统计学,样本量,分布,实际,数据分析,社会,模型,成果,参数,中国科学院,情况,方法,统计分析,变量,回归,样本,领域,问题,降维,科学技术,科学,线性,误差,数据,系统,计量,理论).-->
 </head>
 <body class="topic bbpress single single-topic postid-8789 single-author sidebar" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    主题：高维、相依和不完全数据的统计分析（转载）
   </h1>
  </div>
  <div class="container" id="xmain">
   <div class="hfeed site" id="page">
    <header class="site-header" id="masthead" role="banner">
     <div id="cos-logo">
      <a href="http://cos.name/cn">
       <img src="http://cos.name/cn/wp-content/themes/COS-forest/images/headers/cos-logo.png"/>
      </a>
     </div>
     <div class="navbar" id="navbar">
      <nav class="navigation main-navigation" id="site-navigation" role="navigation">
       <h3 class="menu-toggle">
        菜单
       </h3>
       <div class="menu-%e8%8f%9c%e5%8d%951-container">
        <ul class="nav-menu" id="menu-%e8%8f%9c%e5%8d%951">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-407772" id="menu-item-407772">
          <a href="http://cos.name/cn/">
           论坛首页
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-407773" id="menu-item-407773">
          <a href="http://cos.name/cn/forums/">
           讨论区
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-407774" id="menu-item-407774">
          <a href="http://cos.name/cn/wp-login.php?action=register">
           注册
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-407819" id="menu-item-407819">
          <a href="http://cos.name/">
           主站
          </a>
         </li>
        </ul>
       </div>
      </nav>
      <!-- #site-navigation -->
     </div>
     <!-- #navbar -->
    </header>
    <!-- #masthead -->
    <div class="site-main" id="main">
     <div class="content-area" id="primary">
      <div class="site-content" id="content" role="main">
       <article class="post-8789 topic type-topic status-publish hentry" id="post-8789">
        <header class="entry-header">
         <h1 class="entry-title">
          高维、相依和不完全数据的统计分析（转载）
         </h1>
        </header>
        <!-- .entry-header -->
        <div class="entry-content">
         <div id="bbpress-forums">
          <div class="bbp-breadcrumb">
           <p>
            <a class="bbp-breadcrumb-home" href="http://cos.name/cn/">
             COS论坛 | 统计之都
            </a>
            <span class="bbp-breadcrumb-sep">
             ›
            </span>
            <a class="bbp-breadcrumb-root" href="http://cos.name/cn/forums/">
             讨论区
            </a>
            <span class="bbp-breadcrumb-sep">
             ›
            </span>
            <a class="bbp-breadcrumb-forum" href="http://cos.name/cn/forum/stat-world/">
             统计学世界
            </a>
            <span class="bbp-breadcrumb-sep">
             ›
            </span>
            <a class="bbp-breadcrumb-forum" href="http://cos.name/cn/forum/stat-world/math-stat/">
             数理统计
            </a>
            <span class="bbp-breadcrumb-sep">
             ›
            </span>
            <span class="bbp-breadcrumb-current">
             高维、相依和不完全数据的统计分析（转载）
            </span>
           </p>
          </div>
          <div class="bbp-template-notice info">
           <p class="bbp-topic-description">
            该主题包含 0 条回复，1个帖子，最后由
            <a class="bbp-author-avatar" href="http://cos.name/cn/profile/7391/" rel="nofollow" title="查看redlou的档案">
             <img src="http://sdn.geekzu.org/avatar/48bbfc96d2475268ba6b67f532d69777?s=14&amp;d=monsterid&amp;r=g"/>
            </a>
            <a class="bbp-author-name" href="http://cos.name/cn/profile/7391/" rel="nofollow" title="查看redlou的档案">
             redlou
            </a>
            在
            <a href="http://cos.name/cn/topic/8789/" title="高维、相依和不完全数据的统计分析（转载）">
             8 年, 6 月 之前
            </a>
            更新。
           </p>
          </div>
          <div class="bbp-pagination">
           <div class="bbp-pagination-count">
            查看 1 个帖子（总计 1 个）
           </div>
           <div class="bbp-pagination-links">
           </div>
          </div>
          <ul class="forums bbp-replies" id="topic-8789-replies">
           <li class="bbp-header">
            <div class="bbp-reply-author">
             作者
            </div>
            <!-- .bbp-reply-author -->
            <div class="bbp-reply-content">
             帖子
            </div>
            <!-- .bbp-reply-content -->
           </li>
           <!-- .bbp-header -->
           <li class="bbp-body">
            <div class="bbp-reply-header" id="post-8789">
             <div class="bbp-meta">
              <span class="bbp-reply-post-date">
               2007年11月27日 下午10:21
              </span>
              <a class="bbp-reply-permalink" href="http://cos.name/cn/topic/8789/#post-8789">
               1 楼
              </a>
              <span class="bbp-admin-links">
              </span>
             </div>
             <!-- .bbp-meta -->
            </div>
            <!-- #post-8789 -->
            <div class="odd bbp-parent-forum-991 bbp-parent-topic-8789 bbp-reply-position-1 user-id-7391 topic-author post-8789 topic type-topic status-publish hentry">
             <div class="bbp-reply-author">
              <a class="bbp-author-avatar" href="http://cos.name/cn/profile/7391/" rel="nofollow" title="查看redlou的档案">
               <img src="http://sdn.geekzu.org/avatar/48bbfc96d2475268ba6b67f532d69777?s=80&amp;d=monsterid&amp;r=g"/>
              </a>
              <br/>
              <a class="bbp-author-name" href="http://cos.name/cn/profile/7391/" rel="nofollow" title="查看redlou的档案">
               redlou
              </a>
              <br/>
              <div class="bbp-author-role">
               普通会员
              </div>
             </div>
             <!-- .bbp-reply-author -->
             <div class="bbp-reply-content">
              <p>
               高维、相依和不完全数据的统计分析 *
              </p>
              <p>
               李国英
              </p>
              <p>
               中国科学院数学与系统科学研究院系统科学所
              </p>
              <p>
               现代科学技术和社会经济的许多领域都遇到高维、相依和不完全数据的统计分析问题，它是目前统计学应用和理论中面临困难最多、挑战最严峻，也是最有可能取得突破的研究领域之一。本文试就笔者个人的认识，分三部分介绍、讨论与该领域有关的情况和问题。首先简要讲述统计学的发展情况，然后介绍我国学者在相关领域中的研究成果，最后探讨该领域中一些值得注意的研究方向。本文旨在抛砖引玉，以期得到国内同仁对统计学发展更多的关心和支持。由于笔者水平和知识所限，定有疏漏和不妥之处，欢迎批评指正。
              </p>
              <p>
               一
              </p>
              <p>
               统计学（ statistics, 我国习惯上称为数理统计）研究有效地收集、分析和解释数据，以提取信息、建立模型，并进行推断、预测和决策的方法和理论。人类在社会、生产和科学活动中常常通过实验、观测和调查获得数据（包括各种资料），再从数据中获得知识。统计学正是在这样的过程中产生和发展起来的。社会经济、科学技术和工农业生产的发展是它的源泉和动力，也是它的目的和归宿。统计学的本质性特征决定了它有广泛的应用性和很强的交叉性。
              </p>
              <p>
               大致从十七世纪开始，由于天文、物理、生物、遗传以及人口和社会调查等方面的需要而萌发了统计学。例如， 17 世纪中期， J. Graunt 在人口死亡等社会问题的研究中，发展了最早的描述统计； 18 世纪末 19 世纪初， A. M. Legendre 和 C. F. Gauss 在研究测地学和天体物理的数据分析中，提出了最小二乘法和误差的正态分布理论； 19 世纪中期， F. Galton 在研究生物遗传规律的过程中发明了相关分析和回归分析方法。 关于统计学的早期历史可参阅陈希孺的文章《数理统计学小史》（《数理统计与管理》， 1998 年第 2 期至 1999 年第 6 期）。进入二十世纪以后，相继出现了几位伟大的数学家和统计学家 K. Pearson 、 R. A. Fisher 、
              </p>
              <p>
               ————————————————————————
              </p>
              <p>
               * 国家自然科学基金资助项目（ 19631040 号）
              </p>
              <p>
               A. N. Kolmogrov 、 N. Neyman 、 E. Pearson 和 A. Wald 等，由于他们的奠基性工作，统计学方法和理论都有了很大发展，到四十年代中期成为一门成熟的学科。近五十多年，突飞猛进的社会经济和科学技术不断提出各种各样的统计学问题，计算机的急速发展为收集和分析数据提供了方便。这些都极大地推动了统计学的发展和应用。统计学的内容更加丰富，理论更加深刻，统计方法也越来越广泛深入地渗透到社会经济、科学技术和工农业生产的各个领域，对人类社会的繁荣进步起到了积极的推动作用。统计学也因此受到社会的承认和重视。例如， 1984 年美国 《科学》杂志把统计学列为1900年以来对人类生活影响最大的二十项科学成就的第十八项（第一项是塑料，第六项是电视，第十六项是计算机）。美国和印度等国家曾聘用统计学家作为国家元首的科学顾问。一些发达国家和地区的大部分大学设有统计系，许多大学还同时设有生物统计系或林业统计系等等；许多大企业聘用统计学家为其解决统计问题，例如美国的贝尔公司就拥有数十人的统计学家队伍，著名统计学家J.W.Tukey生前在该公司任职长达数十年。现在，统计学已经成为许多学科领域必不可少的工具；它还与一些学科相结合形成了相应的专业统计，例如，生物统计、计量经济、地质统计、气象统计、农业统计、林业统计、心理统计和教育统计等。
              </p>
              <p>
               在当今的信息和知识经济时代，人类研究的科学和社会问题更加高深、更加复杂、更加庞大，有效地收集和分析数据以提取信息和获得知识变得更加须臾不可离。而且发达的信息技术和高性能的计算机使收集、储存、传输数据和进行科学计算更加便捷。这就给统计学提出了许许多多更大、更难、更复杂的问题。例如，复杂系统的统计建模，经济金融中的预测和决策，高维、定性和不完全数据的统计分析，数据库等巨型复杂数据的信息提取和知识发现，相依变量和动态系统的统计规律，小样本和相关信息的统计推断，信号和图象的统计处理等等。因此，统计学正面临着前所未有的巨大挑战和机遇，其中高维、相依和不完全等复杂数据的统计分析是一个带有普遍性的突出难题。例如，雷达网、信息网等接收和传输的信号数据，卫星遥感观测的图象数据，文字语言的记录数据，DNA和蛋白质结构的测试数据，全国乃至全球的气象和环境数据，人口、企业、教育、科技、医疗卫生等社会调查数据，以及股市、保险、信用卡、房地产等经济金融数据，都是维数很高（数十、数百乃至上千维）、结构十分复杂的数据，许多数据还是前后相依（不独立）的；在工业、国防、天文和医学等领域存在大量的不完全数据，即人们不能得到所关心的某些变量的数值，而只知道它们所在的区域，甚至完全不知道部分变量在部分场合的数值（即缺失数据）。而且 在实际问题中，往往同时遇到多种情况。例如，来自复杂现象的数据一般是高维的，许多时候还是相依的、动态的，有时还含有不完全数据；图象和信号可以转化为高维数据处理，而信号一般是前后相依的动态数据；许多高维数据（例如 DAN 和基因数据），相对其维数而言，样本量相当小；许多小样本问题中经常含有不完全数据等等。对于这些问题，统计学工作者和实际领域中的数据分析工作者都进行了许多研究，有些方面已经形成了一些比较有效的方法，但很多方面还处在探索阶段，缺乏系统有效的方法，更缺乏完整的统理论。近些年， 特别是在发达国家中，有许多统计学家深入到实际领域，或与实际领域的专家合作，探索解决这些挑战性问题的途径。我们将在第三部分介绍一些有关的具体情况。
              </p>
              <p>
               二
              </p>
              <p>
               我国的统计学起步较晚。解放前只有以许宝禄先生为代表的少数几位统计学者，他们是四十年代从国外回来的。解放后，特别是在1956年的国家科学发展规划的推动下，统计学有了较大的发展。改革开放以来，统计学有了新的发展，从事统计学研究、应用和教学的队伍壮大了许多，先后成立了四个全国性学术团体，出版了几种专业刊物，北京大学等七所综合性或理工科大学成立了统计系（或概率统计系等），有近百所财经类高校设有统计系或统计专业；统计学的研究水平不断提高，应用范围不断扩大。我国的统计工作者在理论和应用研究方面也取得了丰硕的成果，不少成果达到国际先进、甚至领先水平。这里仅简要列举与该方向有关的成果。由于时间所限，未能全面收集有关情况，定有疏漏和不当之处，敬请原谅。
              </p>
              <p>
               经典统计学中与高维数据分析直接相关的是多元分析和线性模型的统计分析。早在四、五十年代，这方面的理论研究还处在早期阶段，我国统计学家许宝禄先生获得了一系列开创性研究成果，是国际上公认的奠基人之一。改革开放以来，我国有不少学者从事这方面的研究，成果也很多。例如，中国科学院研究生院陈希孺和中国科学技术大学赵林城比较系统地研究了多元线性回归的LS、和M估计的相合性、渐近正态性和线性表示等大样本性质，在一些情况下得到了或几乎得到了充分必要条件，有的问题得到了精确的阶估计和理想的界限。他们的成果在国际上有较大反响和许多引用，国际著名统计学家、美国科学院院士C.R.Rao等在专著中把他们的主要成果列为6条定理。此外，中国科学院应用数学所方开泰和上海财经大学张尧庭等在椭球总体的多元分析方面，中国科学院系统科学所吴启光和北京理工大学徐兴忠等在多种线性模型估计的容许性和其他统计决策问题方面，北京工业大学王松桂在线性回归的估计方面，以及东北师范大学史宁中在有约束的线性模型方面也都有不少好成果。
              </p>
              <p>
               比线性模型复杂的多元模型是非线性参数模型、半参数和非参数模型。在这些模型的理论方面我国统计学者也有许多工作。例如，中国科学院系统科学所成平等在研究半参数模型的渐近有效估计方面，陈希孺、赵林城和安徽大学陈桂景等在研究非参数回归、密度估计和非参数判别方面，东南大学韦博成等在用微分几何方法研究非线性（参数）回归方面，以及南京大学王金德在非线性回归估计的渐近性质方面均有一系列成果。在非参数理论的成果中，陈希孺和赵林城彻底解决了关于U统计量分布的非一致收敛速度问题，有关结果被美国《统计科学百科全书》以及美国和前苏联等出版的多本专著引述。
              </p>
              <p>
               自助法等重抽样方法也是一类非参数方法，主要是用来逼近那些无法从理论上给出的统计量分布及有关的量。北京大学郑忠国及其合作者与美国D.B.Rubin独立提出了一种与自助法功能相似的随机加权法。他们在多种模型下研究了统计量的随机加权逼近，结果表明该类方法无需重抽样也能达到用自助法的效果，在有些情况下还优于自助法。
              </p>
              <p>
               有关多元统计模型的另一类重要问题是模型的统计诊断，目的是了解实际数据与选用的模型是否吻合。韦博城、人民大学吴喜之以及云南大学王学仁和石磊等在模型和数据的统计诊断方面有许多好成果。云南大学的学者还把他们的成果用于地质探矿的数据分析等实际问题取得成功。解决数据与模型这一对矛盾的另一种途径是使用对模型不敏感的统计方法，即当模型与数据吻合或不太吻合时都能给出比较正确的结论，这就是稳健统计方法。中国科学院系统科学所李国英和张健等在多元位置和散布阵的稳健估计及其性质，位置M估计的崩溃性质等方面也取得了一些好成果。
              </p>
              <p>
               在多维试验设计方面，中国科学院数学所王元和应用数学所方开泰引进数论方法提出了均匀设计，能用于缺乏使用正交设计条件的情况。该设计方法已在国内的多个实际部门应用，效果良好。这一工作在国际上也受到重视。南开大学张润楚等在研究计算机试验设计方面也有一些好成果。
              </p>
              <p>
               七十年代中期出现的投影寻踪(projection  pursuit,简称PP)技术是分析高维数据的较好方法，到八十年代初文献中还很少有理论研究。中国科学院系统科学所成平和李国英领导的研究小组自八十年代中开始从事PP方法和理论的研究，构造了一些分析高维数据的新方法，研究了PP统计量的渐近性质和自助（Bootstrap）逼近，获得了一系列重要结果。例如，成平、朱力行和张健研究了多种PP拟合优度统计量尾概率的估计，对有的统计量得到了精确的阶，否定了前人的猜测；李国英和施沛德等对两类应用普遍的PPU和PPL统计量作出了统一处理，研究了它们的渐近分布及其自助逼近；张健和成平给出了一个一般性结果，解决了大部分PP检验的功效问题；李国英和张健等分别用PP技巧构造了几种多元质量控制图，比原有的控制图提高了检测效果。他们的工作曾多次在有关的国际学术会议上作邀请报告，受到国际同行的好评，在国内外文献中引用较多。有些成果还在国内的水文、气象、医学等方面得到了应用，解决了用传统方法难以处理的问题。
              </p>
              <p>
               与相依数据的统计分析关系密切的是时间序列分析。在这方面我国学者也有很好的工作。北京大学江泽培是这方面最资深的学术带头人。改革开放以来，他和他的学生何书元等在多元平稳序列的谱估计方面取得了一系列重要成果。有些成果还被北京大学谢衷洁、程乾生等应用到天文、地质和医学等实际数据的分析，获得了有价值的发现。中国科学院应用数学所安鸿志在时间序列分析中的重对数律，自回归的选元方法及其相容性，以及非线性和条件异方差模型的性质等方面有不少重要成果，有些成果在国际上有较多引用，受到好评。
              </p>
              <p>
               另一类重要的相依数据问题是统计信号处理。赵林城在信号检测和叠加指数信号的估计及其性质方面有不少好成果，受到国际同行的重视。他提出的一个信号检测准则被外国学者称为有效检测准则，在文献中多次被人引用和仿效。
              </p>
              <p>
               在我国较早从事不完全数据分析研究的有北京大学陈家鼎和复旦大学郑祖康。他们在删失数据下的分布估计和参数估计理论方面作出了贡献。近年来由于可靠性研究的需要，不完全数据的统计方法和理论取得了很大进展。例如，陈家鼎及其合作者用样本空间排序法对于可靠性中常用的寿命分布和一类增长模型，在多种不完全数据情况下导出了在一定意义下的最优置信限。中国科学院系统科学所戴树森、于丹、李国英等对于常用的寿命分布和不完全数据类型，以及可靠性结构相当一般的系统，给出了利用部件数据对系统可靠度进行综合评估的方法，对部件数据样本量的要求比前人的方法明显减少，而且评估精度也提高了。北大和系统所的工作显著推进了前人的理论结果，在相当程度上解决了中小样本情况下，单部件和系统的可靠性评估问题，很有实用价值，受到国防工业部门的欢迎和赞赏。戴树森、于丹、华东师范大学茆诗松以及上海师范大学费鹤良等研究了不完全数据情况下加速寿命试验中的一些估计理论问题，有些成果已在电子元件筛选中得到应用，取得了较大的经济效益。北京工业大学杨振海等关于无失效数据等可靠性中不完全数据的统计分析也有一些好成果。
              </p>
              <p>
               近些年，我国还涌现出一批比较优秀的年轻统计学者，在高维、相依和不完全数据的统计分析等方面获得了可喜的成果。比较突出的有北京大学耿直、何书元、施沛德，中国科学院应用数学所朱力行，系统科学所张健、于丹等。其中，耿直关于定性和不完全数据图模型的研究，朱力行关于PP统计量尾概率和逆回归理论的研究，张健关于PP理论、稳健估计与检验的崩溃性质以及非参数回归的研究，何书元关于不完全数据总体分布估计渐近性质的研究，施沛德关于模型选择问题的研究，以及于丹关于中小样本下复杂系统可靠性评定和导弹贮存可靠性的研究及应用均有不少好成果。此外，北京大学蒋建成，北京师范大学崔恒建，安徽大学胡舒合，中国科学院系统科学所石坚和邹国华，应用数学所王启华、周勇和陈敏，北京理工大学徐兴忠，吉林大学宋立新，以及云南大学石磊和陈建宝等也有一些较好的工作。
              </p>
              <p>
               总之，改革开放以来我国统计学有很大发展，但总的说来，我国的统计学与发达国家相比差距还较大。首先，与我国经济和科技发展对统计学的需求相比，与一个十多亿人口的大国相比，我国统计学的队伍还很小；其次，统计学的应用远没有达到应有的程度。有很多能够应用统计学的行业领域，还不大了解统计学。因此在我国大力发展统计学非常重要。事实上，早在1984年，国务院[国发（1984）7号]文件《关于加强统计工作的决定》就指出“我国要实现工业、农业、科学技术和国防现代化，必须实现统计工作现代化”，“中国科学院要加强数理统计研究机构，要集中一批专门人材，开展统计科学研究，尽快提高我国统计学水平”。笔者深切感到我国统计工作者任重道远。从战略上讲，我们需要大力发展统计教育，培养不同层次的统计学人才，扩大统计学队伍,提高研究水平；还需要在一切能应用统计学的部门与行业普及统计知识，使之成为实际部门的有力工具。这不仅将加速实际领域的发展，而且使我国统计学的发展有更广阔的土壤和更强劲的动力。但这些已超出了本文的范围，这里暂不讨论。
              </p>
              <p>
               三
              </p>
              <p>
               如前所述，现代科学技术的前沿领域和社会经济的重大问题提出了许多高维、相依和不完全等复杂数据的分析处理问题，以下仅就笔者的个人认识，扼要讲述有关这方面的一些值得注意的研究动向。
              </p>
              <p>
               （1）统计模型
              </p>
              <p>
               统计模型是对数据内在规律性的数学描述，数据的复杂性必然带来模型的复杂化。以描述变量之间关系的回归分析为例，经典的统计模型是线性回归函数和独立同分布正态误差。由于所研究的客观现象越来越复杂，要求也越来越精细，回归函数已从线性发展到各种非线性回归函数、广义线性、部分线性、比例危险率等半参数回归函数，以及可加、广义可加和完全非参数等非参数回归函数；误差模型也发展到独立不同分布的正态误差和污染误差等参数和半参数模型，独立不同分布的对称误差、相依弱结构误差等半参数和非参数模型。类型的情况在统计学的各个分支都存在。近些年研究较多的统计模型还有：分层模型、多重线性模型、潜马氏链模型、间接可加模型、网络图模型、时空序列模型和条件异方差模型等等。这些模型大多是在研究某类实际问题中提出，后来被推广到更多的领域，成为有一定普遍性的统计模型。还有一种情况，特别是较新领域中的数据，由于我们对该领域所知甚少，只好用半参数甚至非参数模型。近十多年半参数和非参数模型的统计方法和理论有很多讨论。总之，由于人类所研究的问题和现象越来越复杂，所遇到的数据和相应的模型也将越来越复杂。对于实际中出现的各种复杂数据，找出和建立适当的模型，并针对不同的模型研究有效的统计分析、推断方法及其理论是统计学永远要面对的挑战，也是它取之不尽、用之不竭的发展动力。
              </p>
              <p>
               （2）模型选择、统计诊断和稳健方法
              </p>
              <p>
               进行统计分析与推断的第一步，就是对手中的数据建立适当的模型。对于一组数据，往往有好多类模型可供选择；在同一类模型中，还要确定变量个数或某种“阶数”，这就是所说的模型选择。然后才是进一步的统计推断，即参数的点估计、区间估计或假设检验等。早期的模型选择主要是线性回归中自变量的选取，方法也局限于最小二乘法导出的统计量和AIC准则等。随着数据和模型的复杂化，模型选择问题更为重要。面对一组数据，特别是一组新领域的复杂数据，往往有数十类模型可供选择。这里最为困难的是选择哪一类模型，其次是在这一类模型中，选择其“阶数”或变量。到目前为止，对前一个问题还极少有讨论。关于后一个问题，虽然取得了许多重要进展，但仍有许多方法和理论问题尚待解决，特别是关于时空序列、高阶马氏链和隐马氏链的定阶，以及广义线性模型、生长曲线模型、含误差的变量和协变量模型（EV模型）中的变量选取等较复杂的模型选择问题。模型选择问题在理论和应用上都很重要，是研究较多且有可能取得突破的研究方向。
              </p>
              <p>
               统计诊断是研究所选定的模型与数据是否符合，找出明显与模型不符的情况，包括少数“离群点”，对推断结果影响大的“杠杆点”，以及其它不符合模型假定的地方（例如，常用的模型假定有：误差等方差，回归函数为线性等）。稳健方法则是从另一个角度解决模型与数据的关系问题，即研究在模型与数据相符或者不很相符（即少有偏离）的情况，都能给出比较符合实际的推断结果的统计方法。统计诊断和稳健统计方法是在过去的三十多年里发展起来的统计分析方法，由于许多方法计算十分复杂，其发展曾一度减缓。近些年，随着计算机的快速发展和普及，这两个方向又再次受到的重视，对于比较复杂模型（参见前面的（1），（2）），的统计诊断和稳健方法，包括相应的理论问题研究较多。而且，新的数据类型和新的模型不断出现，需要研究新的诊断和稳健方法、算法及理论。
              </p>
              <p>
               （3）降维技术
              </p>
              <p>
               一方面由于高维数据分析十分困难，另一方面高维数据中的信息往往主要包含在一个或几个低维结构中，因此降维是分析高维数据的一个重要手段。传统的主成分分析，Fisher判断等都属于降维方法，但它们只适用于有线性结构的简单数据。七十年代中开始的投影寻踪是具有一定普遍意义的较好的降维技术，九十年代初提出的切片逆回归也是一种降维方法。近几年关于投影寻踪和其他降维方法讨论较多。这里有几个难点：（I）怎样针对一类实际问题确定寻找低维结构的准则；（II）如何判断所找到的低维结构是否真实；（III）计算问题，因为真正可用于高维复杂数据的降维方法（例如投影寻踪）计算量都很大，而且往往不能一步到位，需要多次反复。
              </p>
              <p>
               （4）计算密集型方法
              </p>
              <p>
               统计量及其分布是进行推断的基础。在许多复杂情况，所需要的统计量没有显表达式，有时即使有也很难计算。对此，往往提出适当的算法借助计算机求出所需要的量。而且，除了少量较简单的参数模型外，无法得到统计量在有限样本情况的精确分布（或某些分布特征），而这是进行统计推断的关健。虽然许多情况有大样本下的渐近分布，但在实际中用它作统计推断精度较差，不能满足要求。由此近二、三十年产生了许多计算密集型方法，以得到所需要的统计量、统计量的近似分布或分布特征，或给出比基于大样本理论精度更高的推断结果。例如EM 算法及其各种推广、投影寻踪技术、偏最小二乘法（Partial least square）、自助法、重要抽样和马氏链蒙特卡洛（MCMC）等。其中有些方法，例如，偏最小二乘和MCMC等，首先出现在某个实际领域，后来被统计学家注意，并推广发展成具有一般性的方法。当前，还有一些处理和分析复杂数据的方法，已经在某些实际领域中应用，例如神经网络、机器学习、数据采掘、数据库知识发展和独立成分分析等。一些统计学家已经开始参与这些方法的研究。这应该是一个非常值得重视的领域。
              </p>
              <p>
               （5）似然方法
              </p>
              <p>
               在参数模型的统计推断中，似然方法（极大似然估计和似然比检验等）占有十分重要的地位。近二、三十年，参数模型的似然方法有许多发展，出现了拟似然、偏似然、条件似然和惩罚似然等新方法。其中基于近似辅助统计量和条件似然的条件推断尤为引人注目。然而在半参数和非参数模型下，极大似然估计和似然比检验统计量或者不存在，或者很难计算。这一困难近十年左右已有所突破。其中比较突出的是Sieve似然方法和利用各种辅助信息的经验似然方法。在一些相对简单的情况已获得成功，并得到了一些理论成果。但总的说来，这方面的研究还在开始阶段，有许多复杂情况还有待研究。例如，似然方法在半参数和非参数情况，能不能达到简单参数情况的优良性质？怎么才能达到？这些问题均是研究的焦点。
              </p>
              <p>
               （6）小样本问题与信息融合
              </p>
              <p>
               在高新技术和国防科技中，由于产品价格和试验费用十分昂贵，在各种环境条件下所获得的试验数据中，能作为来自同总体样本的样本量相当小，而且大部分是不完全数据。在许多复杂问题中，样本量的绝对数也许不算小，但相对于数据的维数，或者参数个数而言，样本量就相当小了。对这样一些问题，经典的精确统计方法大多不适用，而大样本理论的统计推断又精度较差。于是近二、三十年出现了自助法、随机逼近、鞍点逼近和其他高阶渐近逼近的方法。对于较复杂的数据和模型，基于样本量较小的数据本身，给出尽可能精确的统计推断，仍然是一个重要的研究方向。另一方面，在实际问题中除了来自所研究的总体的直接数据之外，还可能有其他一些与之有关的数据，也包含一些有关所研究总体的信息。如何把这些数据充分利用起来，对于小样本问题是十分重要的。贝叶斯分析是融合不同来源信息的较好方法。问题在于如何客观地确定先验分布，即避免先验分布中的主观成分。这就是近些年讨论较多的客观贝叶斯方法。
              </p>
              <p>
               著名统计学家B. Efron（Statistical Science,13 (1998),95-122）认为，信仰（Fiducial）方法有可能在客观贝叶斯分析中起重要作用。信仰方法是由A. R. Fisher于二十世纪三十年代提出，它是在没有先验信息的情况下，对参数给出类似于后验分布的信仰分布。但该方法遇到很多困难，没有发展起来，而被认为是 Fisher 的一大失误。Efron认为，信仰方法有可能在较复杂的问题中给出较好的近似信仰分布，从而有可能进行客观的贝叶斯分析。显然他把 Bayes 推断和 Fiducial 推断结合起来了。面对越来越大、越来越难、越来越复杂的实际问题，人们必然需要多种推断方法，以及它们之间合理、有效的结合，并根据不同的实际问题，选用适当的推断原理和方法。这里有许多需要深入研究的基础性问题。
              </p>
              <p>
               结束语  现代科学技术和社会经济中的课题，一般都是交叉性综合性的，要涉及多个学科领域。同样，在其数据的获取和分析这一统计学方面，也不可能只涉及一、两个研究方向。面对各种实际领域中的统计学问题，特别是挑战性强的困难问题，应该有一些统计工作者与实际领域的专家相结合，在解决实际问题的过程中利用统计学的有关最新成果，同时探索新的统计概念、模型、方法和理论。以理论研究为主的统计学者，在关注国际统计学理论发展的同时，也应关心我国实际领域中的统计问题及其进展，提出和解决其中的理论问题。这样，我国的统计学将在与国际接轨的同时，也将逐渐培育起自己的肥沃土壤，为我国的现代化建设和国际统计学的发展都作出应有的贡献。
              </p>
              <p>
               致谢  在本文形成的过程中，曾得陈希孺院士，张尧庭、陈家鼎、茆诗松、王学仁、安鸿志、赵林城和韦博成等教授的帮助，特致衷心的感谢！
              </p>
             </div>
             <!-- .bbp-reply-content -->
            </div>
            <!-- .reply -->
           </li>
           <!-- .bbp-body -->
           <li class="bbp-footer">
            <div class="bbp-reply-author">
             作者
            </div>
            <div class="bbp-reply-content">
             帖子
            </div>
            <!-- .bbp-reply-content -->
           </li>
           <!-- .bbp-footer -->
          </ul>
          <!-- #topic-8789-replies -->
          <div class="bbp-pagination">
           <div class="bbp-pagination-count">
            查看 1 个帖子（总计 1 个）
           </div>
           <div class="bbp-pagination-links">
           </div>
          </div>
          <div class="bbp-no-reply" id="no-reply-8789">
           <div class="bbp-template-notice">
            <p>
             您必须先登录才能回复该主题。
            </p>
           </div>
          </div>
         </div>
        </div>
        <!-- .entry-content -->
        <footer class="entry-meta">
        </footer>
        <!-- .entry-meta -->
       </article>
       <!-- #post -->
       <div class="comments-area" id="comments">
       </div>
       <!-- #comments -->
      </div>
      <!-- #content -->
     </div>
     <!-- #primary -->
     <div class="sidebar-container" id="tertiary" role="complementary">
      <div class="sidebar-inner">
       <div class="widget-area">
        <aside class="widget bbp_widget_login" id="bbp_login_widget-2">
         <h3 class="widget-title">
          登录
         </h3>
         <form action="http://cos.name/cn/wp-login.php" class="bbp-login-form" method="post">
          <fieldset>
           <legend>
            登录
           </legend>
           <div class="bbp-username">
            <label for="user_login">
             用户名:
            </label>
           </div>
           <div class="bbp-password">
            <label for="user_pass">
             密码:
            </label>
           </div>
           <div class="bbp-remember-me">
            <label for="rememberme">
             记住用户名
            </label>
           </div>
           <div class="bbp-submit-wrapper">
            <button class="button submit user-submit" id="user-submit" name="user-submit" tabindex="104" type="submit">
             登录
            </button>
           </div>
           <div class="bbp-login-links">
            <a class="bbp-register-link" href="http://cos.name/cn/wp-login.php?action=register" title="注册">
             注册
            </a>
            <a class="bbp-lostpass-link" href="http://cos.name/cn/wp-login.php?action=lostpassword" title="忘记密码">
             忘记密码
            </a>
           </div>
          </fieldset>
         </form>
        </aside>
        <aside class="widget widget_text" id="text-7">
         <h3 class="widget-title">
          搜索
         </h3>
         <div class="textwidget">
          <form action="http://www.google.com/search" id="bbp-search-form" method="get" onsubmit="Gsitesearch(this)" role="search">
           <div>
           </div>
          </form>
          <form id="bbp-search-form-baidu" onsubmit="g(this)" role="search">
           <div>
           </div>
          </form>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-2">
         <h3 class="widget-title">
          新鲜事
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <a href="http://cos.name/cn/topics/">
             最新帖子
            </a>
           </li>
           <li>
            <a href="http://cos.name/cn/view/popular/">
             最热门主题
            </a>
           </li>
           <li>
            <a href="http://cos.name/cn/view/no-replies/">
             消灭零回复
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-3">
         <h3 class="widget-title">
          RSS订阅
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <img src="http://cos.name/wp-includes/images/rss.png"/>
            <a href="http://cos.name/cn/topics/feed/">
             所有主题
            </a>
           </li>
           <li>
            <img src="http://cos.name/wp-includes/images/rss.png"/>
            <a href="http://cos.name/cn/forums/feed/">
             所有帖子
            </a>
           </li>
          </ul>
         </div>
        </aside>
       </div>
       <!-- .widget-area -->
      </div>
      <!-- .sidebar-inner -->
     </div>
     <!-- #tertiary -->
    </div>
    <!-- #main -->
    <footer class="site-footer" id="colophon" role="contentinfo">
     <div class="site-info">
      版权所有 © 2014 统计之都 | 由
      <a href="http://wordpress.org/">
       WordPress
      </a>
      构建 | 主题修改自
      <a href="http://wordpress.org/themes/twentythirteen">
       Twenty Thirteen
      </a>
     </div>
     <!-- .site-info -->
    </footer>
    <!-- #colophon -->
   </div>
   <!-- #page -->
  </div>
 </body>
</html>